排序方式: 共有62条查询结果,搜索用时 171 毫秒
1.
基于通用多核架构的网络分组处理系统性能受到诸如分组IO开销高、多核共享内存及进程调度竞争大、页表缓冲表项失效率高等问题的困扰。为此提出一种基于通用多核网络分组处理系统、面向高速分组转发应用的线程亲和缓冲区硬件管理机制,并在网络专用协处理引擎上实现。该机制采用无中断的线程亲和调度策略,将包含控制信息与缓冲区地址信息的描述符和分组数据按照分组处理的线程号链式地对应加载在多个地址连续的共享缓冲区中。基于通用多核和现场可编程门阵列平台进行报文转发测试,实验结果表明,采用线程亲和缓冲区管理机制能使平均报文转发处理性能提升12.4%,有效地降低IO开销和TLB表项失效率。 相似文献
2.
针对多核集群系统所表现出的新的性能特征,提出了面向多核集群系统消息传递应用程序的并行模拟模型并设计、实现了一个并行模拟器MCPSim(Multi-core Cluster Parallel Simulator),MCPSim在功能模型和性能模型上体现了片内核间、结点内片间以及结点间等三个层次上消息通信的特点,同时支持对应用的消息数量、通信量等的百分比分布的profiling功能,采用PRIMEJ、acobi3D、NPB IS以及HPL等Benchmark程序对MCPSim进行了测试,结果表明MCPSim性能预测的精度优于BigSim,同时能够广泛应用于针对多核集群系统消息传递应用程序的性能分析中。 相似文献
3.
很多优化处理器缓存利用效率的方法依赖于对访问请求序列的特征的探测或识别,例如,预取和绕开等。如何在线有效识别访问请求序列的特征依然是一个开放的问题。通过对典型访问模式的深入分析,发现其堆栈距离频度的分布展示出鲜明的特征。而模拟实验数据表明访问请求序列的特征具有一定的持续性和稳定性,具有检测和预测的可行性。因而提出了一种基于堆栈直方图峰值的在线识别访问模式的机制和方法,空间和时间开销都较小。对SPEC CPU2000/2006的15个程序的实验表明,所提方法均可正确识别测试程序的访问模式。 相似文献
4.
融合乘加指令加速快速傅里叶变换计算的向量化方法,通过变换快速傅里叶变换的蝶形单元运算流程,将传统计算方式中独立的乘法和加法操作组合成次数更少的融合乘加操作,使得时间抽取法基2快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的10次乘(加)操作减少到6次融合乘加操作,时间抽取法基4快速傅里叶变换算法的蝶形单元计算的实数浮点操作由原来的34次乘(加)操作减少到24次融合乘加操作;优化了蝶形因子的向量访问,减少存储开销。实验结果表明,提出的方法能够显著加速快速傅里叶变换的计算,取得高效的计算性能和效率。 相似文献
5.
6.
合成孔径成像是提高图像方位向分辨率的有效方法,但算法运算量大,在机载条件下往往实时性得不到保证。采用非聚焦成像算法可以在分辨率与运算量之间作一个折衷,可以在分辨率要求不是很高而需要实时性很强的情况下,输出方位向得到较大改善的实时图像。在简要介绍非聚焦合成孔径成像原理和TMS320C6203芯片特点的基础上,着重讨论了非聚焦合成孔径成像算法基于多DSP系统的实时实现,分析了系统性能并给出了实验结果。 相似文献
7.
LS-DSP是用于航天图像处理的数字信号处理器,内部的协处理器由处理元PE阵列构成。路由器则是实现PE阵列网格互连的专用部件,也是操作最频繁的部件。如何降低处理器功耗,提高算法的执行效率是一个非常重要的研究课题。针对LS-DSP路由器的电路进行门控时钟的低功耗设计改进,并以算法为例进行了控制、执行过程功耗分析和比较。实验结果表明,改进结构的路由器降低功耗76%。 相似文献
8.
分析了传统模拟方法实现单边带调制的不足,给出了用数字信号处理方法实现单边带调制的实现方法,并分析了其中的正交调制、内插技术等关键技术,在此基础上设计并实现了一个以TI TMS320 芯片为核心的数字式单边带调制系统.与模拟调制法相比,该电路结构简单,性能稳定可靠. 相似文献
9.
介绍了DLX虚拟处理器的结构特征和流水线处理机的工作原理,通过矩阵乘法运算实例模拟了程序在DLX虚拟处理器中的流水执行过程,并利用DLX的统计分析工具对流水线的性能进行对比分析,提出了流水线处理过程中潜在问题的解决方法,为设计和改进流水线结构及提高流水线处理机中算法的执行效率提供了参考依据。 相似文献
10.
针对目前大多数多核处理器任务分配优化算法没有考虑关键路径上节点对任务完成时间的重要影响,导致任务完成总时间延迟的问题,提出了基于关键路径和任务复制(CPTD)的单任务调度算法。CPTD算法通过复制任务图中fork节点的方式将任务图转化为与之相对应的产品加工树;再在生成的产品加工树中找到关键路径,并采取使关键路径上节点的紧前节点尽早调度的方式,使关键路径上节点尽早开始执行,进而使产品加工树中节点完成时间得以提前,达到缩短任务执行总时间的目的。理论分析表明,CPTD算法能够实现应用程序在多核上充分并行处理,并能缩短任务完成时间。 相似文献